主动学习(AL)是一种众所周知的标准方法,可通过首先标记基于查询策略的最多信息的样本来有效地获得带注释的数据。过去,已经提出了各种各样的查询策略,每一代新策略都会增加运行时并增加了更复杂的功能。但是,据我们所知,这些策略都没有在不同应用领域的大量数据集上始终如一。基本上,大多数现有的AL策略都是两种简单的启发式信息和代表性的结合,而巨大的差异在于通常相互矛盾的启发式方法的结合。在本文中,我们提出了Imital,这是一种独立于领域的新型查询策略,该策略将AL编码为学习级别的问题,并学习两种启发式方法之间的最佳组合。我们在纯合成数据集上进行大规模模拟的AL运行训练Imital。为了证明Imital经过了成功培训,我们进行了广泛的评估,将来自广泛域以及其他7种查询策略的13个不同数据集的策略进行比较。
translated by 谷歌翻译
The text-to-image model Stable Diffusion has recently become very popular. Only weeks after its open source release, millions are experimenting with image generation. This is due to its ease of use, since all it takes is a brief description of the desired image to "prompt" the generative model. Rarely do the images generated for a new prompt immediately meet the user's expectations. Usually, an iterative refinement of the prompt ("prompt engineering") is necessary for satisfying images. As a new perspective, we recast image prompt engineering as interactive image retrieval - on an "infinite index". Thereby, a prompt corresponds to a query and prompt engineering to query refinement. Selected image-prompt pairs allow direct relevance feedback, as the model can modify an image for the refined prompt. This is a form of one-sided interactive retrieval, where the initiative is on the user side, whereas the server side remains stateless. In light of an extensive literature review, we develop these parallels in detail and apply the findings to a case study of a creative search task on such a model. We note that the uncertainty in searching an infinite index is virtually never-ending. We also discuss future research opportunities related to retrieval models specialized for generative models and interactive generative image retrieval. The application of IR technology, such as query reformulation and relevance feedback, will contribute to improved workflows when using generative models, while the notion of an infinite index raises new challenges in IR research.
translated by 谷歌翻译
光环伴形培养基中的离子气体通过热阳光阳光层(TSZ)效应在宇宙微波背景上留下烙印。来自活性银河核(AGN)和超新星的反馈会影响晕孔集成TSZ通量的测量($ y_ \ mathrm {sz} $),并导致其与光晕质量的关系($ y_ \ mathrm {sz} -mm $ )偏离病毒定理的自相似幂律预测。我们对使用骆驼,一套流体动力模拟的套件进行了全面研究,反馈处方的差异很大。我们使用两个机器学习工具(随机森林和符号回归)的组合来搜索$ y-m $关系的类似物,这对低质量的反馈过程($ m \ sillesim 10^{14} \,h^, {-1} \,m_ \ odot $);我们发现,仅替换$ y \ rightarrow y(1+m _*/m_ \ mathrm {gas})$在关系中使其非常相似。这可以用作低质量簇和星系组的强大多波长质量代理。我们的方法通常对于提高其他天体分级关系的有效性领域通常也很有用。我们还预测,$ y-m $关系的测量值可以在反馈参数的某些组合和/或排除超级新闻和AGN反馈模型的主要部分,以提供百分比的约束。艺术流体动力模拟。我们的结果对于使用即将进行的SZ调查(例如SO,CMB-S4)和Galaxy Surveys(例如Desi和Rubin)来限制Baryonic反馈的性质。最后,我们发现,$ y-m _*$的另一种关系提供了有关反馈的补充信息,而不是$ y-m $。
translated by 谷歌翻译
IoT设备收集的数据通常是私人的,并且在各种用户之间具有巨大的多样性。因此,学习需要使用可用的代表性数据样本进行预训练,在物联网设备上部署预训练的模型,并使用本地数据在设备上调整已部署的模型。这种用于深度学习授权应用程序的设备改编需要数据和记忆效率。但是,现有的基于梯度的元学习方案无法支持记忆有效的适应。为此,我们提出了P-Meta,这是一种新的元学习方法,该方法可以强制执行结构的部分参数更新,同时确保快速概括到看不见的任务。对几片图像分类和强化学习任务的评估表明,与最先进的几次适应方法相比。
translated by 谷歌翻译
理论不确定性限制了我们从诸如Thermal Sunyaev-Zel'Dovich(TSZ)效应等重的宇宙学信息中提取宇宙学信息的能力。 TSZ效应由电子压力场采购,取决于通常由昂贵的流体动力模拟建模的男性物理学。我们在Illustristng-300宇宙学模拟上训练神经网络,以预测仅重力模拟的星系簇中的连续电子压力场。对于神经网络而言,建模群集具有挑战性,因为大多数气体压力集中在少数体素中,甚至最大的流体动力模拟只包含几百个可以用于训练的簇。我们选择采用旋转等效的深度体系结构直接在暗物质颗粒集上运行,而不是传统的卷积神经网(CNN)体系结构。我们认为,基于集合的体系结构比CNN具有不同的优势。例如,我们可以执行精确的旋转和置换量比,并在TSZ领域中纳入现有的知识,并与宇宙学标准的稀疏领域一起工作。我们使用单独的,物理上有意义的模块组成我们的体系结构,使其可以解释。例如,我们可以分别研究局部和集群尺度环境的影响,确定簇三轴性具有可忽略的影响,并训练一个纠正错误居中的模块。我们的模型在适合相同模拟数据的分析概况上提高了70%。我们认为,电子压力场被视为仅重力模拟的函数,具有固有的随机性,并通过向网络的条件vae扩展进行建模。这种修饰可进一步提高7%,但受我们的小型培训集的限制。 (简略)
translated by 谷歌翻译
时间序列预测在城市生活中广泛应用,从空气质量监测到交通分析。但是,准确的时间序列预测是具有挑战性的,因为现实世界中的时间序列遇到了分配转移问题,在该问题中,它们的统计属性会随着时间而变化。尽管对域适应或概括的分布变化的广泛解决方案,但它们在未知的,不断变化的分布变化中无法有效发挥作用,这在时间序列中很常见。在本文中,我们提出了超时性预测(HTSF),这是一个基于超网络的框架,用于在分配变化下预测准确的时间序列。 HTSF以端到端的方式共同学习时间变化的分布和相应的预测模型。具体而言,HTSF利用超层来学习分布移位的最佳表征,从而为主层生成模型参数以进行准确的预测。我们将HTSF实施为可扩展的框架,可以结合不同的时间序列预测模型,例如RNN和Transformers。对9个基准测试的广泛实验表明,HTSF达到了最先进的表现。
translated by 谷歌翻译
复杂的系统(恒星,超新星,星系和群集)通常在可观察性质(例如,亮度,速度分散,振荡周期,温度)之间表现出低散射关系。这些缩放关系可以照亮底层物理,可以为估计质量和距离提供观测工具。机器学习可以在抽象的高维参数空间中寻找新的扩展关系(或对现有关系的简单扩展)提供系统的系统。我们使用称为符号回归(SR)的机器学习工具,该工具以分析方程的形式在给定的数据集中绘制模式。我们专注于Sunyaev-Zeldovich Flux $ - $群集质量关系($ Y_ \ MATHRM {SZ} -M $),它会影响来自集群丰富数据的宇宙学参数的推断。使用SR对来自IllustrySTG流体动力学模拟的数据,我们找到了一个新的群集质量代理,它结合了$ Y_ \ MATHRM {SZ} $和电离气体的浓度($ c_ \ mathrm {gas} $):$ m \ propto y_ \ mathrm {ccon} ^ {3/5} \ Equiv y_ \ mathrm {sz} ^ {3/5}(1-a \,c_ \ mathrm {gas})$。 $ y_ \ mathrm {coct} $减少预测$ m $的分散$ \ sim 20-30 $%的大型群集($ m \ gtrsim 10 ^ {14} \,h ^ { - 1} \,m_ \ oott $)在高和低频的高频上,与使用只需$ y_ \ mathrm {sz} $相比。我们表明对$ C_ \ MATHRM {GARS} $的依赖性与展示比其郊区更大的分散的集群核心。最后,我们从骆驼项目的模拟中测试$ y_ \ mathrm {cenc} $ in clusters,并显示$ y_ \ mathrm {crc} $对宇宙学,天体物理学,划分物理学和宇宙方差的变化是稳健的。我们的结果和方法可以用于电流和即将到来的CMB和X射线调查的精确多波长簇质量估计,如ACT,所以,SPT,肌肉和CMB-S4。
translated by 谷歌翻译
制定了具有机器学习模拟(骆驼)项目的宇宙学和天体物理学,通过数千名宇宙的流体动力模拟和机器学习将宇宙学与天体物理学结合起来。骆驼包含4,233个宇宙学仿真,2,049个n-body和2,184个最先进的流体动力模拟,在参数空间中采样巨大的体积。在本文中,我们介绍了骆驼公共数据发布,描述了骆驼模拟的特性和由它们产生的各种数据产品,包括光环,次麦,银河系和空隙目录,功率谱,Bispectra,Lyman - $ \ Alpha $光谱,概率分布函数,光环径向轮廓和X射线光子列表。我们还释放了超过骆驼 - 山姆的数十亿个星系的目录:与Santa Cruz半分析模型相结合的大量N身体模拟。我们释放包含350多个Terabytes的所有数据,并包含143,922个快照,数百万光环,星系和摘要统计数据。我们提供有关如何访问,下载,读取和处理数据AT \ URL {https://camels.readthedocs.io}的进一步技术详细信息。
translated by 谷歌翻译
自治车辆和机器人需要越来越多的鲁棒性和可靠性,以满足现代任务的需求。这些要求特别适用于相机,因为它们是获取环境和支持行动的信息的主要传感器。相机必须保持适当的功能,并在必要时采取自动对策。但是,几乎没有作品,审查了相机的一般情况监测方法的实际应用,并在设想的高级别应用程序中设计对策。我们为基于数据和物理接地模型的相机提出了一种通用和可解释的自我保健框架。为此,我们通过比较传统和血液的机器学习的方法,确定一种可靠的两种可靠,实时的估计,用于诸如难以释放的情况(Defocus Blur,运动模糊,不同噪声现象和最常见的噪声现象和最常见的组合)的典型图像效果广泛的实验。此外,我们展示了如何根据实验(非线性和非单调)输入 - 输出性能曲线来调整相机参数(例如,曝光时间和ISO增益)以实现最佳的全系统能力,使用对象检测,运动模糊和传感器噪声作为示例。我们的框架不仅提供了一种实用的即用的解决方案,可以评估和维护摄像机的健康,但也可以作为扩展来解决更复杂的问题的基础,以凭经验组合附加的数据源(例如,传感器或环境参数或环境参数)为了获得完全可靠和强大的机器。
translated by 谷歌翻译
基于深度学习的脑磁共振成像(MRI)重建方法有可能加速MRI采集过程。尽管如此,科学界缺乏适当的基准,以评估高分辨率大脑图像的MRI重建质量,并评估这些所提出的算法在存在小而且预期的数据分布班次存在下的表现。多线圈磁共振图像(MC-MRI)重建挑战提供了一种基准,其目的在于使用高分辨率,三维,T1加权MRI扫描的大型数据集。挑战有两个主要目标:1)比较该数据集和2)上的不同的MRI重建模型,并评估这些模型的概括性,以通过不同数量的接收器线圈获取的数据。在本文中,我们描述了挑战实验设计,并总结了一系列基线和艺术脑MRI重建模型的结果。我们提供有关目前MRI重建最先进的相关比较信息,并突出挑战在更广泛的临床采用之前获得所需的普遍模型。 MC-MRI基准数据,评估代码和当前挑战排行榜可公开可用。它们为脑MRI重建领域的未来发展提供了客观性能评估。
translated by 谷歌翻译